核心速递
- hood2vec:使用移动网络识别类似的城市区域;
- DynWalks:全局拓扑和考虑最近变化的动态网络嵌入;
- 超越信息传播的覆盖范围:大规模在线社会网络中重新暴露的分析和经验证据;
- 欧洲核子研究中心和未来环形对撞机的探索性实验文化;
Unlocking Analytical Value from Social Media and User Generated Content http://arxiv.org/abs/1907.11934James Meneghello, Nik Thompson, Kevin Lee, Kok Wai Wong, Bilal Abu-Salih摘要: 社交媒体和用户生成内容的普及导致全球数据量的指数增长。但由于收集和提取技术的挑战,许多摘要、注释、评论和致谢中的数据无法作为通用数据源访问。本文将知识管理框架作为知识管理和数据价值提取的范例。该框架是一个应用丰富、实时数据源来分析应用程序的UGC潜在解决方案。本文中描述的贡献有三个方面。首先,提出了一种自动导航分页系统的方法,将UGC公开用于收集。这是使用与动态数据收集集成的浏览器仿真来评估的。其次,介绍了一种在无任何先验知识的情况下收集社交数据的新方法。最后,开发了一个新的测试平台,以反映互联网网站的当前状态并公开分享,以鼓励未来的研究。本文基于现有数据提取技术对新算法进行了基准测试,并提供了新算法可访问的UGC数据量增加的证据。
hood2vec: Identifying Similar Urban Areas Using Mobility Networks http://arxiv.org/abs/1907.11951 Xin Liu, Konstantinos Pelechrinis, Alexandros Labrinidis摘要: 纽约哪个区域与下东区(纽约市曼哈顿区沿东河南端一带,犹太移民聚居地)最相似?那洛杉矶的诺荷艺术区怎么样?传统上,该任务利用关于位于区域内的地点类型信息和一些流行度/质量指标。我们采取不同的方法。特别是,城市居民的随时间变化的流动性差异反映了他们与城市的互动方式。因此,在本文中,我们介绍了一种方法,即Hood2vec,通过学习基于Foursquare(一家基于用户地理位置信息(LBS)的手机服务网站)捕获的移动网络信息的节点嵌入方法,来识别城市区域之间的相似性。我们比较了从Hood2vec获得的成对相似性与从比较不同区域的场馆类型获得的成对相似性。两者之间的低相关性表明,流动性动力学和场地类型可能捕捉到城市区域之间相似性的不同方面。
DynWalks:全局拓扑和
考虑最近变化的动态网络嵌入
DynWalks: Global Topology and Recent Changes Awareness Dynamic Network Embedding http://arxiv.org/abs/1907.11968Chengbin Hou, Han Zhang, Ke Tang, Shan He摘要: 由于许多现实世界网络的时间演化性质,即节点/连边可以随着时间的推移而添加/移除,因此,最近在动态环境中学习网络的拓扑表示引起了相当大的关注。动态网络嵌入旨在通过使用动态网络的任何当前可用快照来学习不可见和可见节点的低维嵌入。对于可见的节点,现有方法要么将它们视为同等重要,要么在每个时间段中仅关注受k影响最大的节点。然而,前一种解决方案非常耗时,后一种依赖于传入更改的解决方案,因此可能会失去全局拓扑结构——这是下游任务的一个重要特征。为了应对这些挑战,我们提出了一种名为DynWalks的动态网络嵌入方法,它包括两个关键组件:1)一个在线网络嵌入框架,可以根据所选节点动态、高效地学习嵌入; 2)一种新颖的在线节点选择方案,提供灵活的选择以平衡全局拓扑结构和最近的变化,并在需要时实现实时约束。对六种真实动态网络在三种不同切片方式下的实证研究表明,DynWalks在图重构任务中明显优于最先进的方法,并在链路预测任务中获得可比较的结果。此外,挂钟时间和复杂性分析也证明其具有出色的时间和空间效率。有关DynWalks的源代码,请访问https://github.com/houchengbin/ Fusing location and text features for sentiment classification http://arxiv.org/abs/1907.12008Wei Lun Lim, Chiung Ching Ho, Choo-Yee Ting摘要: 地理标记的Twitter数据最近被用来推断社交媒体人性方面的见解。在最近的研究中,从地理标记的推特数据中挖掘出与人口统计学,文化活动的空间分布,人类的时空旅行轨迹以及幸福感相关的见解。到目前为止,有关推文的地理位置特征对其情绪的影响的研究还不多。这启发了我们基于地理位置特征进行情感分析。该方法将地理位置特征和独热编码(one-hot)的词向量作为卷积神经网络(CNN)和长短期记忆网络(LSTM)的输入,对地理标记的推文的进行情感分类。以地理位置特征的形式添加与语言本身无关的特征,有助于丰富推文的表示,以解决短推文消息的稀疏性问题。结果表明,与单独使用词向量进行情感分类相比,将地理位置特征连接到独热编码(one-hot)的词向量可以实现更高的准确度。 Nonuniform Timeslicing of Dynamic Graphs Based on Visual Complexityhttp://arxiv.org/abs/1907.12015 Yong Wang, Daniel Archambault, Hammad Haleem, Torsten Moeller, Yanhong Wu, Huamin Qu摘要: 由于动态图在时间维度上的方便性和一致性,大多研究将动态图的时间进行均匀划分。然而,统一的时间划分方法并没有考虑数据集的影响,这会产生具有边缘突发性质的杂乱时间片和交互性很低的空时间片。图挖掘领域已经提出了非均匀的时间划分方法,专门用于保留挖掘任务的图特征。在本文中,我们提出了一种用于动态图可视化的非均匀时间划分方法。我们的目标是创建具有相同视觉复杂性的时间片。为此,我们调整直方图均衡化的方法,来创建具有相似数量事件的时间片,平衡时间片之间的视觉复杂性,并展示具有边缘突发性质的时间片的重要细节。为了证明我们的方法的有效性,我们进行了一个案例研究,与均匀时间划分方法进行了比较。 Characterizing and Understanding Software Developer Networks in Security Development http://arxiv.org/abs/1907.12141Song Wang, Nachi Nagappan摘要: 为了构建安全的软件,开发人员通常在软件开发和维护期间一起工作,以发现、修复和预防安全漏洞。在开发人员的安全检测过程中,检查开发人员之间的交互性质(关于安全引入和安全修复活动),可以为当前实践提供改进意见。在这项工作中,我们进行了一项大规模的实证研究,以描述和理解开发人员在安全引入和安全修复活动期间的交互性质,涉及来自九个大型开源软件项目的超过16000个安全修复声明和超过28000个安全引入声明。为了便于分析,在评估开发人员在安全活动中的贡献时,我们首先检查项目是否是以英雄为中心的项目。然后,我们研究开发人员之间的交互模式,探索模式的分布如何随时间变化,并研究开发人员交互对项目质量的影响。此外,与非安全活动中的开发人员交互(即引入和修复非安全性错误)相比,我们还描述了安全活动中开发人员的交互性质。研究发现,在评估开发人员在安全活动中的贡献时,大多数实验项目都是以非英雄为中心的项目 ; 在我们的实验项目中存在着共同主导的交互模式 ; 交互模式的分布与软件项目的质量有关。我们相信这项研究的结果,可以帮助开发人员理解,在软件开发人员的交互作用下,漏洞是如何产生和修复。Strengthening Gossip Protocols using Protocol-Dependent Knowledge http://arxiv.org/abs/1907.12321 Hans van Ditmarsch, Malvin Gattinger, Louwe B. Kuijer, Pere Pardo摘要: 分布式动态八卦是广义上的经典电话问题,在这个问题中,主体通过通信来共享秘密,另外还可以通过交换电话号码来确定谁可以打电话给谁。最近的工作集中于简单协议的成功条件,例如“学习新秘密”(LNS),即其中一个主体a只有在不知道主体b的秘密时,才能只调用另一个主体b。如果所有主体都知道所有的秘密,则协议执行成功。在部分网络上,这些协议有时会失败,因为它们忽略了一些可用于更好协调主体的可用信息。我们研究了如何加强动态八卦的认知协议,使用认知逻辑作为一种简单的协议语言,并使用新的操作符来处理新的具有协议依赖性的知识。我们提供了不同强化的定义,并表明它们比LNS表现更好,但我们也证明了目前没有更强大的LNS总能使程序成功终止。总之,这使我们更好地了解了何时以及如何协调认识性,才能帮助一般的分布式系统解决动态八卦问题。Statistical Characteristics and Community analysis of Urban Road Networks http://arxiv.org/abs/1907.12367 Wen-Long Shang, Huibo Bi, Yanyan Chen, Washington Ochieng摘要: 城市道路网络,作为一种典型的复杂系统,对我国社会和经济发展至关重要。本文研究了许多基于纯物理道路而不是车辆或公共汽车路线的城市道路网络的拓扑特征,以发现潜在的独特结构特征,特别是与其他类型的交通网络相比。基于这些拓扑指数,本文还探讨了拓扑指数与城市道路网络之间小世界特性的关系。结果表明,城市道路网络没有明显的小世界特性,这显然与其他交通网络不同。进一步,本文对城市道路网络进行社区检测。结果表明,城市道路网络的社区和等级往往遵循一般性规则。
超越信息传播的覆盖
范围:大规模在线社会网络
中重新暴露的分析和经验证据
Beyond the Coverage of Information Spreading: Analytical and Empirical Evidence of Re-exposure in Large-scale Online Social Networkshttp://arxiv.org/abs/1907.12389 Xin Lu, Shuo Qin, Petter Holme, Fanhui Meng, Yanqing Hu, Fredrik Liljeros, Gad Allon摘要: 同伴影响力和社会传染性是信息传播的采用和参与的关键决定性因素,例如新闻传播、口碑传播或病毒式营销。在这项研究中,我们认为只关注信息传播的规模和覆盖范围是片面的,为更有效地量化信息传播能力,本文认为应该将相同的信息放在一起,统一衡量传播的有效性。因此,本文提出通过“再曝光率”来量化的这种影响力强化水平,即重复曝光于同一信息的个体的比率。研究表明,局部网络结构特征将显著影响曝光或再曝光相同信息的可能性。通过分析拥有4.3亿用户的新浪微博(中国的推特)的超大规模在线网络上的趋势新闻,我们发现有一类网民虽然关注着成千上万的用户,但他们的曝光率极低;此外,对于具有更多关注度和;流量的的二级转发新闻,他们的再曝光率却显著升高。虽然曝光和再曝光率通常随着传播规模的扩大而一起增长,但我们发现也有例外,即在保持低再曝光率的同时,可以实现高曝光率的特殊情况,反之亦然。 Modelling the Safety and Surveillance of the AI Racehttp://arxiv.org/abs/1907.12393The Anh Han, Luis Moniz Pereira, Francisco C. Santos, Tom Lenaerts摘要: 创新,创造力和竞争是推动人工智能(AI)发展的基本力量。这种技术至上的竞争创造了一种复杂的选择生态,可能导致负面后果,特别是当道德和安全程序被低估甚至忽视时。在这里,我们采用一种新颖的博弈理论框架来描述正在进行的人工智能竞标战,同时,也允许开发程序来使这种竞赛达到理想的结果。通过研究人工智能与演化系统之间持续竞争的相似性,我们发现,可以实现人工智能的时间线优势对于安全倾向行为的演变以及是否需要影响程序起着至关重要的作用。当这种优势可以在短期内实现时(接近人工智能时代),赢得比赛所获得的显著优势,将导致那些完全忽视安全预防措施以获得额外速度的人的优势,从而使互惠行为的存在变得无关紧要。另一方面,当这种优势地位遥遥无期时,对他人的安全行为做出回应本身也是一种有效的解决方案,即使在难以监测不安全的发展的情况下也是如此。研究表明,在任何条件下,AI安全行为都需要额外的支持程序,并提供基本框架来对其进行建模。Bursty time series analysis for temporal networks http://arxiv.org/abs/1907.12558 Hang-Hyun Jo, Takayuki Hiraoka摘要: 表征时间网络的突发时间交互模式对于研究时间网络的演化以及在其中发生的各种集体动力学具有重要意义。时间交互模式由一系列交互事件或事件序列描述,通常具有非泊松性或突发性。这种突发事件序列不仅可以通过异构事件时间(IETs)来理解,而且可以通过IETs之间的相关性来理解。近年来,人们对IETs的异质性进行了广泛的研究,而IETs之间的相关性并未得到充分的研究。本文介绍了突发时间序列分析的各种指标,如IET分布,突发性参数,记忆系数,突发列大小和自相关函数,以讨论这些指标之间的关系。然后我们证明了IETs之间的相关性可以影响在时间网络中发生的传播速度。最后,我们讨论了有关时间网络突发时间序列分析的潜在研究课题。 Exploring Perceptions of Veganism http://arxiv.org/abs/1907.12567Laura Jennings, Christopher M. Danforth, Peter Sheridan Dodds, Elizabeth Pinel, Lizzy Pope摘要: 该项目通过问卷调查和社交媒体研究了对素食主义生活方式的看法,以探讨选择素食主义的障碍。一项对510个人的调查研究表明,非素食主义者不认为纯素食主义与素食主义者一样健康。在第二个分析中,Instagram帖子中使用#vegan建议内容主要针对女性素食者社区。最后,基于大约500万篇提到“素食主义者”的Twitter帖子情感分析研究结果,本文发现,与其他主题相比,素食主义这个主题更加积极。结果表明,非素食主义者对素食主义缺乏兴趣是由于不认同素食对健康有益。Improved mutual information measure for classification and community detectionhttp://arxiv.org/abs/1907.12581 M. E. J. Newman, George T. Cantwell, Jean Gabriel Young摘要: 信息理论量,即互信息量,广泛应用于分类和社区检测分析,可以将同一组对象的两个分类进行分组比较。例如,在分类算法的上下文中,它通常用于将发现的类与已知的基本事实进行比较,从而量化算法性能。在这里,我们认为标准的互信息量,省略了一个在现实条件下可能变大的关键术语,因此,产生的结果可能是错误的。我们演示了如何纠正此错误,并定义适用于所有情况的互信息量。本文讨论新措施的实际实施情况,并给出了一些应用示例。 A Practical Guide for the Effective Evaluation of Twitter User Geolocation http://arxiv.org/abs/1907.12700 Ahmed Mourad, Falk Scholer, Walid Magdy, Mark Sanderson摘要: 地理定位Twitter用户 - 家乡位置识别任务 - 为广泛的社区和商业应用提供服务,例如管理自然危机,新闻和公共卫生。目前,已经提出了许多基于推文自动定位用户方法;同时,还提出了各种评估指标来衡量这些方法的有效性,因此,哪些评估指标最适合衡量这些方法成为一项具有挑战性的任务。本文通过分析在受控实验环境下的15个模型和两个基线,提出了一个标准化的Twitter用户地理定位评估指南。在四个地理粒度上使用十个指标来评估模型。本文使用排名相关性来评估这些指标的有效性。研究结果表明,有效性度量的选择可以对地理定位系统实验得出的结论产生实质性影响,可能会导致实验者得出矛盾的结果。研究表明,对于一般评估,应报告一系列性能指标,以确保传达系统有效性的完整图景。鉴于此任务的全球地理覆盖范围,我们特别建议在微观与宏观层面进行评估,以衡量分布偏差对位置的影响。尽管近年来已经应用了许多复杂的地理定位算法,但是大多数类基线在粗粒度上仍然具有竞争力。我们根据所采用的度量标准,提出了一套统计分析测试方法,以确保结果不具有偶然性。Social Internet of Things and New Generation Computing — A Surveyhttp://arxiv.org/abs/1907.12737Hamed Vahdat-Nejad, Zahra Mazhar Farimani, Arezoo Tavakolifar摘要: 社交物联网(SIOT)试图通过计算社会科学的方法来克服物联网(IOT)的可扩展性、信任和资源发现等挑战。本次调查旨在从应用领域和与新计算模型的集成两个角度对SIOT进行研究。为此,本文提出了一个二维框架,并相应地研究了项目。第一个维度从应用领域的角度对可用的研究进行考虑和分类,第二个维度从新计算模型的集成的角度进行相同的研究。其目的是从技术上描述SIOT,对相关研究进行分类,促进最新技术的传播,并讨论该领域的开放研究方向。A Physical Testbed for Intelligent Transportation Systemshttp://arxiv.org/abs/1907.12899 Adam Morrissett, Roja Eini, Mostafa Zaman, Nasibeh Zohrabi, Sherif Abdelwahed摘要: 智能交通系统(ITS)和其他智能城市技术在能力和复杂性方面正在不断提升。虽然仿真环境不断改善,但随着新系统变得越来越复杂,它们的保真度和易用性会迅速降低。为了解决这个问题,我们提出了一个基于硬件和软件的交通管理系统测试平台,作为更大的智能城市测试平台的一部分。它包括连接车辆网络,交叉路口控制器网络,各种控制服务和数据分析服务。我们测试平台的主要目标是为研究人员和学生提供开发新型交通和车辆控制算法的途径,使其具有比单独模拟更高的保真度。具体而言,我们正在使用测试平台开发了一个集成的管理系统,该系统将基于模型的控制和数据分析结合起来,以提高系统性能。在本文中,我们详细描述了测试平台中的每个部分,并对其发展现状进行了讨论。此外,我们展示了研究的初步结果和未来工作方向。 The culture of exploratory experimentation at CERN and the Future Circular Colliderhttp://arxiv.org/abs/1907.12946摘要: 到目前为止,我们已经见证了关于未来对撞机前景的发展,特别是即将在CERN举行的,引起科学界内外广泛关注的,关于未来环形对撞机(FCC)的激烈丰富的大讨论。我们认为这种大讨论对于这样一个重要的研究项目是必要的,但我们也认为它应该建立在坚实的理论基础上,避免特定的陷阱和偏见的倾向。在此背景下,我们将通过强调有关手头问题的历史方面,尝试为这一特定讨论作出贡献。 The evolution of lying in well-mixed populations http://arxiv.org/abs/1907.12990 Valerio Capraro, Matjaz Perc, Daniele Vilone摘要: 谎言会对个人、群体甚至社会产生深远的负面影响。因此,了解谎言如何演化以及何时扩散,对于我们的个人和社会福祉具有重要意义。为此,我们用统计物理学的方法研究了混合人群中的发送者 - 接收者博弈模型。我们使用蒙特卡罗方法来确定四种不同类型谎言的说谎者(发送者)和相信者(接收者)的稳定频率。我们认为利他主义的白色谎言仅有利于接收者,黑色谎言仅有利于发送者,恶意谎言会同时伤害发送者和接收者,而善意的谎言(Pareto white)同时有利于发送者和接收者。我们发现恶意的谎言会导致琐碎的行为,在这些行为中,发送者很快就会发现他们最佳策略是发送真实的信息,而接收者同样很快就会知道他们最佳策略是相信发送者的信息。对于白色谎言和黑色谎言,我们发现大多数发送者撒谎,而大多数接收者不相信发送者的信息,但说谎者和不相信者的确切频率在很大程度上取决于回报,并且他们在达到相对稳定状态前不断进化。最后,善意的谎言(Pareto white)是我们观察到最复杂的动力学行为,说谎和相信的可能性随着0到1之间的所有频率的变化而变化,一切取决于回报。我们讨论了这些结果对人类实验中道德行为的影响。 Influencer identification in dynamical complex systems http://arxiv.org/abs/1907.13017 Sen Pei, Jiannan Wang, Flaviano Morone, Hernán A Makse摘要: 许多现实世界的复杂系统的完整性和功能取决于一小部分关键节点或其他影响因子。在不同的环境中,这些影响因子被定义为维持网络连通性的结构上关键节点,或者是可能不成比例地影响某些动态过程的动态关键单元。在实际应用中,识别给定系统中的最佳影响因子集合,在各种学科中都具有深远的意义。在这篇综述中,我们调查了从不同角度发展起来的影响因子识别研究的最新进展,并提出了目前针对不同目标设计的最先进的解决方案。特别的,我们首先讨论的问题是最少关键节点问题,这些节点的移除会使网络崩溃(即最佳渗透或网络拆除问题),进一步寻找测量方法,来定位能够用连续(如独立级联模型)或非连续(例如,阈值模型)模型塑造全局动态的基本节点。本文的最后进行总结和展望。 Government as Network Catalyst: Preferential Attachment in the High-Technology Sector http://arxiv.org/abs/1907.13087 Travis A. Whetsell, Michael D. Siciliano, Kaila Witkowski, Michael J. Leiblein摘要: 各国政府在防止市场失灵和加强战略性产业创新方面有着长期的利益。关于国内技术的公共政策对国家安全和经济繁荣至关重要。各国政府通常通过促进组织间的私营部门合作活动来提高其全球竞争力。网络治理研究揭示了边界跨越协作的结构,主要针对具有直接公共或非营利目标的项目。但关于政府如何刺激私营部门合作以防止市场失灵或加强创新的研究还远远不够这项研究的理论贡献是建议政府项目可以通过刺激社会网络中固有的优先依附机制来促进合作活动。本文运用最近提出的纵向社会网络随机网络分析方法,分析了1987年至1999年间政府项目对451家高科技半导体产业组织的战略联盟网络的长期影响。 Multi-layer modelling of adoption dynamics in energy demand management http://arxiv.org/abs/1907.13096 Iacopo Iacopini, Benjamin Schäfer, Elsa Arcaute, Christian Beck, Vito Latora摘要: 由于新技术的出现,整个电力系统正经历着前所未有的规模和速度的变革。特别是,能源资源的分散化和智能电网改变了博弈规则,迫使公用事业服务部门重新考虑与客户的关系。所谓的需求响应(DR)旨在调整对电力需求而不是调整电力供应。然而,DR商业模式依赖于客户参与,并且如果电网的同一区域中的大量客户选择加入时(例如连接到同一个变压器)才是有效的。在这里,我们介绍了一个基于服务采用的动态模型,其中客户的行为受到其社会联系的影响,此外还取决于电网中其他客户的特定空间配置。特别是,我们使用的是两层耦合在一起的多路复用网络,即客户之间的社会层和连接家庭的电网层。虽然,以流行病传播为模型的采用过程在社会层上运行,但节点的节点恢复率和时间依赖性则取决于它们在电网层上的邻居的状态,因此,这种动态趋势通过使受感染节点不热衷于恢复,来保护受感染个体的集群,这是通过用处于相同状态的节点来包围受感染节点实现的。对合成网络和现实网络模型的数值模拟表明,用户行为的强局部影响导致了一个不连续的过渡,即网络中没有节点或所有节点都被感染,这取决于感染率和要采取的社会压力。我们发现,本地早期采用者群体,作为高本地压力点,可以帮助维护采用者,有助于最终所有节点采用。因此,本文提出了一种直接的营销策略,有助于建立和维护需求响应(DR)方案等新技术。 Opinion Formation under Antagonistic Influences http://arxiv.org/abs/1907.13103摘要: 我们研究了一个广义选民模型中的观点动态数据,其中选民受到两个敌对新闻来源的影响,其影响是促进政治两极分化。我们发现,随着新闻来源影响力的增加,达成共识的平均时间异常长,达到政治极化状态的时间相当短,稳态的舆论分布呈现出从近似共识状态向政治两极化状态的转变。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。
集智俱乐部QQ群|877391004
商务合作及投稿转载|swarma@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!